Everyday mining : Exploring sequences in event-based data ; Utforskning av sekvenser i händelsebaserade data

نویسنده

  • Katerina Vrotsou
چکیده

Event-based data are encountered daily in many disciplines and are used for various purposes. They are collections of ordered sequences of events where each event has a start time and a duration. Examples of such data include medical records, internet surfing records, transaction records, industrial process or system control records, and activity diary data. This thesis is concerned with the exploration of event-based data, and in particular the identification and analysis of sequences within them. Sequences are interesting in this context since they enable the understanding of the evolving character of event data records over time. They can reveal trends, relationships and similarities across the data, allow for comparisons to be made within and between the records, and can also help predict forthcoming events. The presented work has researched methods for identifying and exploring such event-sequences which are based on modern visualization, interaction and data mining techniques. An interactive visualization environment that facilitates analysis and exploration of event-based data has been designed and developed, which permits a user to freely explore different aspects of this data and visually identify interesting features and trends. Visual data mining methods have been developed within this environment, that facilitate the automatic identification and exploration of interesting sequences as patterns. The first method makes use of a sequence mining algorithm that identifies sequences of events as patterns, in an iterative fashion, according to certain user-defined constraints. The resulting patterns can then be displayed and interactively explored by the user. The second method has been inspired by web-mining algorithms and the use of graph similarity. A tree-inspired visual exploration environment has been developed that allows a user to systematically and interactively explore interesting event-sequences. Having identified interesting sequences as patterns it becomes interesting to further explore how these are incorporated across the data and classify the records based on the similarities in the way these sequences are manifested within them. In the final method developed in this work, a set of similarity metrics has been identified for characterizing event-sequences, which are then used within a clustering algorithm in order to find similarly behaving groups. The resulting clusters, as well as attributes of the clustering parameters and data records, are displayed in a set of linked views allowing the user to interactively explore relationships within these. The research has been focused on the exploration of activity diary data for the study of individuals’ time-use and has resulted in a powerful research tool facilitating understanding and thorough analysis of the complexity of everyday life. Populärvetenskaplig sammanfattning Utforskning av sekvenser i händelsebaserade data Denna avhandling presenterar metoder för att studera och analysera händelsebaserade data med hjälp av modern datorgrafik och algoritmiska beräkningar. Händelsebaserade data p̊aträffas dagligen i många discipliner och används för olika ändamål. Data är samlingar av sekvenser som best̊ar av händelser som sker vid en viss tid och har en viss varaktighet. Exempel p̊a händelsebaserade data är sjukjournaler som redogör för en patients sjukdomshistoria, Internetsurfningregister, biografiska redogörelser, redogörelser för förflyttningar eller karriärer, samt tidsanvändningsdata i form av aktivitetsdagböcker som är register över hur individer använder sin tid för att genomföra sina dagliga aktiviteter, vilket är den typ av data som st̊ar i fokus i detta forskningsarbete. När man studerar händelsebaserade data i allmänhet, och tidsanvändningsdata i synnerhet, är det av intresse att identifiera sekvenser av händelser, eller aktiviteter, som sammantaget uppvisar ett specifikt beteende. Detta kan, till exempel, vara sekvenser som är gemensamma för många och ofta förekommer p̊a ett liknande sätt, eller som är unika för ett f̊atal och avslöjar avvikande mönster. Genom att identifiera och synligöra s̊adana sekvenser blir det möjligt att hitta samband och trender samt genomföra jämförelser inom och emellan dataregister. Inom tidsanvändningsstudier handlar detta om att studera hur individer bygger upp sina dagar, hur de arrangerar sina dagliga projekt, kombinerar alla sina m̊asten och pusslar ihop sina vardagsliv. Det vanliga sättet att analysera tidsanvändningsuppgifter är att skapa rapporter av sammanfattande statistik, i form av tabeller och diagram, över total tid som tillbringas p̊a olika aktiviteter. Även om denna metod ger värdefull övergripande information, försummar den ocks̊a viktiga egenskaper som gömmer sig i tillgängliga data. Detaljer för när, hur många g̊anger, hur länge och i vilken ordning de olika aktiviteterna genomförs förblir dolda. Forskningen som presenteras i denna avhandling har fokuserat p̊a att utveckla metoder för att visuellt analysera händelsebaserade data, särskilt aktivitetsdagböcker, som synliggör och utnyttjar deras inneboende sekventiella karaktär. Representationer som är skräddarsydda för den särskilda datatypen har konstruerats. Dessa i kombination med grafiska gränssnitt, interaktionsoch filtreringstekniker ger en användare möjligheten att fritt utforska och studera data strukturen. Utöver detta har olika algoritmer för datautvinning varit föremål för forskning i syfte att automatisk kunna identifiera intressanta sekvenser inom samt genomföra jämförelser och gruppera dataregister med hänsyn till de identifierade sekvensernas likheter. Alla utvecklade metoder har kombinerats med visualiseringsoch interaktionstekniker för att effektivt presentera och till̊ata interaktiv utforskning av data och resultat. Arbetet har resulterat i ett kraftfullt forskningsverktyg som möjliggör meningsfull och ing̊aende analys av händelsebaserade data.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Encoding Sequential Structures using Kernels

Sequential data-types represent a natural model for information in many fields, such as Time-Series Analysis and Computational Biology. Having a very dynamic nature, sequential data still represents a challenge to modern learning methods which struggle to fully integrate the underlying information into their mechanisms. Kernel Methods offer a practical and accessible framework for the integrati...

متن کامل

High Fuzzy Utility Based Frequent Patterns Mining Approach for Mobile Web Services Sequences

Nowadays high fuzzy utility based pattern mining is an emerging topic in data mining. It refers to discover all patterns having a high utility meeting a user-specified minimum high utility threshold. It comprises extracting patterns which are highly accessed in mobile web service sequences. Different from the traditional fuzzy approach, high fuzzy utility mining considers not only counts of mob...

متن کامل

Peekquence: Visual Analytics for Event Sequence Data

Exploring event sequences in big data is challenging. Though many mining algorithms have been developed to derive the most frequently occurring and the most meaningful sequential patterns, it is yet difficult to make sense of the results. To tackle the problem, we introduce a visual analytics approach, Peekquence. In this paper, we describe the design of Peekquence, which aims to increase the i...

متن کامل

CAMLS: A Constraint-Based Apriori Algorithm for Mining Long Sequences

Mining sequential patterns is a key objective in the field of data mining due to its wide range of applications. Given a database of sequences, the challenge is to identify patterns which appear frequently in different sequences. Well known algorithms have proved to be efficient, however these algorithms do not perform well when mining databases that have long frequent sequences. We present CAM...

متن کامل

Exploring EFL Learners’ Use of Formulaic Sequences in Pragmatically Focused Role-play Tasks

Communicative language use largely entails regular patterns consisting of pre-constructed phrases or sequences. These sequences have been examined by many researchers to find the situation-based formulas which may help L2 learners follow a possibly more target-like speaking system. This study, therefore, explored two categories of formulaic expressions including speech formulas and situation-bo...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010